Главная / Рефераты / Корреляционный и регрессионный анализ.

Корреляционный и регрессионный анализ.

Понятия корреляционного и регрессионного анализа применяются для обозначения методов изучения связи между двумя или более переменными, измеренными по интервальной или относительной шкале. Хотя эти два термина нередко считаются синонимами, их цели существенно различаются. Корреляционный анализ подразумевает измерение силы связи между двумя или более переменными, при этом он рассматривает совместное изменение двух оцениваемых переменных. Регрессионный анализ используется для выведения уравнения, связывающего зависимую переменную с одной или несколькими независимыми переменными; данный метод позволяет исследовать распределение зависимой переменной в условиях, когда одна или несколько независимых переменных сохраняются фиксированными на различных уровнях. Если речь идет о двух или больше независимых переменных, то регрессионный анализ называют методом множественной регрессии. В действительности не существует никаких теоретических препятствий для определения силы связи между переменными без выведения уравнения регрессии. Подобным образом и проведение регрессионного анализа также оказывается возможным без исследования корреляции. Но на практике обычно используются оба метода анализа. Корреляционный анализ целесообразно применять в случаях, когда необходимо выяснить ответы на следующие вопросы: • Насколько сильно связан объем продаж с расходами на рекламу? • Существует ли связь между долей рынка и количеством торгового персонала? • Связано ли восприятие качества товаров потребителями с их восприятием цены? Регрессионный анализ позволяет ответить на следующие вопросы: • Действительно ли независимые переменные обуславливают значимую вариацию зависимой переменной? • В какой степени вариацию зависимой переменной можно объяснить независимыми переменными? • Какова форма связи и вид математического уравнения, описывающего зависимость между зависимой и независимой переменными? • Как предсказать значения зависимой переменной? Корреляционный и регрессионный анализы используют для анализа экспериментальных данных, результатов опроса или данных наблюдений. К статистикам, используемым в корреляционном и регрессионном анализах, относятся: Коэффициент парной корреляции R. Коэффициент парной корреляции – это статистический показатель, характеризующий степень тесноты связи между двумя метрическими переменными. Его используют для определения степени линейной зависимости между переменными. Он показывает степень, в которой вариация одной переменной X связана с вариацией другой переменной Y, т.е. меру зависимости между переменными X и Y. Имея выборку, размером n наблюдений, коэффициент парной корреляции R, для переменных X и Y можно вычислить по формуле: где и обозначают выборочные средние. Диаграмма рассеяния (поле корреляции). Поле корреляции – это графическое представление точек с координатами, определяемыми значениями двух переменных (независимой и зависимой), для всех наблюдений. Модель парной регрессии. Основное уравнение регрессии имеет вид Yi= ?0 + ?1Хi + еi, где Y – зависимая или критериальная переменная, X – независимая переменная, или предиктор, ?0 – точка пересечения прямой регрессии с осью 0Y; ?1 – тангенс угла наклона прямой и еi – остаточный член (остаток), связанный с i-м наблюдением, характеризующий отклонение от функции регрессии. Коэффициент детерминации. Тесноту связи измеряют коэффициентом детерминации R2. Он колеблется в диапазоне между 0 и 1 и указывает на долю полной вариации Y, которая обусловлена вариацией X. Скорректированный коэффициент множественной детерминации R2. Коэффициент множественной детерминации R2 корректируют с учетом числа независимых переменных и размера выборки, чтобы снизить влияние зависимости коэффициента детерминации от количества переменных. После введения нескольких первых переменных дополнительные независимые переменные не так сильно влияют на коэффициент детерминации. Коэффициент множественной детерминации R2. Тесноту связи между переменными при множественной регрессии измеряют, возводя в квадрат коэффициент множественной корреляции. Вычисляемое (теоретическое) значение Y. Вычисляемое значение Y равно = a + bх, где – вычисляемое значение Yi, а параметры а и b – это вычисляемые оценки ?0 и ?1, соответственно. Коэффициент регрессии. Вычисляемый параметр b обычно называют ненормированным коэффициентом регрессии. Частный коэффициент регрессии. Частный коэффициент регрессии bi обозначает изменение в предсказанном значении при изменении X1 на единицу, когда другие независимые переменные от Х2 до Xk остаются неизменными. Стандартная ошибка уравнения регрессии. Эта статистика S представляет собой стандартное отклонение фактических значений Y от теоретических значений . Нормированный коэффициент регрессии. Также называется бета-коэффициентом, или взвешенным бета-коэффициентом. Показывает изменение Y в зависимости от изменения X (угол наклона прямой уравнения регрессии) при условии, что все данные нормированы. Сумма квадратов ошибок. Значения расстояний всех точек до линии регрессии возводят в квадрат и суммируют, получая сумму квадратов ошибок, которая является показателем общей ошибки . t-статистика. t-статистику с п-2 степенями свободы можно использовать для проверки нулевой гипотезы, которая утверждает, что между X и Y не существует линейной зависимости или H0: ?1 = 0, где t = b/ SEb. F-критерий. Используется для проверки нулевой гипотезы о том, что коэффициент множественной детерминации в совокупности равен нулю. Это эквивалентно проверке нулевой гипотезы H0: ?0 = ?1 = ?2 = ?3... = ?k = 0. Статистика, лежащая в основе критерия для проверки гипотезы, подчиняется F-распределению c k и (n – k- 1) степенями свободы. Частный F-критерий. Значимость частного коэффициента регрессии ?i переменной Xi можно проверить, используя приростную F-статистику. Она основана на приращении в объясняемой сумме квадратов, полученном добавлением независимой переменной Xi в уравнение регрессии после исключения всех других независимых переменных. Этапы процедуры выполнения корреляционно-регрессионного анализа представлена на рисунке 5.5. 1. Определение зависимой и независимой переменной (переменных). Использование терминов зависимой и независимой переменной для описания оценок, получаемых при корреляционном анализе, обусловлено математической функциональной связью между переменными и не имеет никакого отношения к зависимости переменных с точки зрения причинно-следственной связи. Ничто в корреляционном анализе или в любом другом математическом методе не может использоваться для установления каузальной зависимости. Подобные процедуры могут помочь только оценке характера и интенсивности связи или ковариации между переменными. Поэтому выбор переменных для корреляционно-регрессионного анализа должен, прежде всего, основываться на теоретическом и практическом понимании исследуемого феномена и целях маркетингового исследования. Однако иногда полезно выявить существование математической функциональной связи между переменными для того, чтобы выдвинуть определенные гипотезы и проанализировать их с точки зрения целей маркетингового исследования. Для этого на первом этапе полезно изучить простую корреляцию между каждой парой переменных. Эти результаты представляют в форме корреляционной матрицы, которая показывает коэффициент корреляции между каждой парой данных. Обычно, рассматривают только самую нижнюю треугольную часть матрицы. Интерпретация коэффициента корреляции в отношении вывода о наличии, силе и направлении возможной взаимосвязи между данными представлена в таблице А. Все элементы по диагонали равны 1,00, так как переменная коррелирует сама с собой. Верхняя треугольная часть матрицы – зеркальное отражение нижней треугольной части матрицы, поскольку r – симметричный показатель связи между переменными. Выбор переменных для множественного регрессионного анализа сложнее. Прежде всего, следует проанализировать решаемую задачу, имеющиеся данные и цели маркетингового исследования. Затем необходимо составить список переменных-факторов, классифицированных по приоритетам, и провести анализ всех их подмножеств. Если существуют три переменные-фактора необходимо исследовать восемь подмножеств этих переменных. Однако при увеличении количества альтернативных переменных для выбора такой метод становится слишком сложным. Например, для 10 переменных возникает необходимость проанализировать 1024 подмножества. В таком случае целесообразно выбирать переменные после анализа корреляционной матрицы. Роль корреляционной матрицы при построении моделей множественной регрессии также важна для устранения явления мультиколлинеарности. Мультиколлинеарность – это состояние очень высокой степени корреляции между независимыми переменными, которое усложняет оценку относительной важности независимых переменных при объяснении вариации зависимой переменной. Чтобы справиться с проблемой мультиколлинеарности, можно использовать только одну переменную из высококоррелированного набора переменных. Второй вариант – применить факторный анализ (п. 5.3.5). Рисунок 5.5. Процедура корреляционно-регрессионного анализа. Таблица5.10. Интерпретация коэффициента корреляции Корреляция Интерпретация 1 Идеальная положительная взаимосвязь. Близка к 1 Сильная положительная взаимосвязь. Близка к 0, но положительна Незначительная положительная взаимосвязь. 0 Отсутствие взаимосвязи. Близка к 0, но отрицательно Незначительная отрицательная взаимосвязь. Близка к -1 Сильная отрицательная взаимосвязь. -1 Идеальная отрицательная взаимосвязь. 2. Выбор метода и формулирование общей модели. Метод корреляционно-регрессионного анализа зависит от количества и типа используемых переменных (рисунок 5.6). Рисунок 5.6. Выбор метода корреляционно-регрессионного анализа в зависимости от количества и типа переменных. Для определения формы зависимости между двумя переменными используется поле корреляции. Это графическое изображение точек с координатами, соответствующими значениям двух переменных для всех случаев. Обычно значения зависимой переменной откладывают по вертикальной оси, а значения независимой – по горизонтальной. График дает исследователю первое представление о силе, направлении и форме связи (таблица 5.11). На графике легко идентифицировать любую необычную комбинацию переменных. Поле корреляции показывает, можно ли зависимость Y по X выразить прямой линией и, следовательно, подходит ли к этим данным парная регрессионная модель. Таблица5.11. Интерпретация расположения точек на диаграмме рассеяния Расположение точек на диаграмме рассеяния Интерпретация Все точки расположены строго на прямой линии, направленной вверх и направо Идеальная положительная взаимосвязь. Точки данных довольно плотно сгруппированы (с небольшим случайным разбросом) вокруг прямой линии, направленной вверх и направо Сильная положительная взаимосвязь. Точки данных образуют случайное облако с незначительной ориентацией вверх и вправо Незначительная положительная взаимосвязь. Совершенно случайное облако, не имеющее ориентации ни вверх, ни вниз при движении вправо. Отсутствие взаимосвязи. Точки данных образуют случайное облако с незначительной ориентацией вниз и вправо Незначительная отрицательная взаимосвязь. Точки данных плотно сгруппированы (с небольшим случайным разбросом) вокруг прямой линии, направленной вниз и вправо Сильная отрицательная взаимосвязь. Все точки расположены строго на прямой линии, направленной вниз и вправо Идеальная отрицательная взаимосвязь. Точки данных располагаются строго на горизонтальной или вертикальной линии Не определена В модели парной регрессии форма прямой линии выражается уравнением: , где Y – зависимая, или критериальная переменная, X – независимая переменная, или предиктор, ?0 – отрезок прямой, отсекаемый на оси OY, ?1 – угловой коэффициент (тангенс угла наклона). Эта модель исходит из того, что Y полностью определяется X. При известных значениях ?0 и ?1 можно предсказать значение Y. Однако в маркетинговом исследовании немного связей между переменными четко детерминированы. Поэтому, чтобы учесть вероятностную природу связи, в регрессионное уравнение вводят ошибочный член. Базовое уравнение регрессии принимает вид: где еi – член уравнения, характеризующий ошибку i-го наблюдения. В случае множественной регрессии построить корреляционное поле не представляется возможным, так как мы имеем дело более чем с двумерным изображением зависимости. Общая форма модели множественной регрессии имеет вид: 3. Вычисление параметров. Самый распространенный метод для расчета уравнения линейной регрессии по данным на диаграмме рассеяния – это метод наименьших квадратов. Методом наименьших квадратов определяют наиболее подходящую прямую регрессии, минимизируя расстояния по вертикали всех точек поля корреляции от этой прямой. Наиболее подходящая прямая называется линией регрессии. Если точка поля не лежит на линии регрессии, то расстояние по вертикали от нее до линии называется ошибкой еj. Расстояния от всех точек до линии регрессии возводят в квадрат и суммируют, получая сумму квадратов ошибок, и это число показывает суммарную ошибку . Для определения наиболее подходящей линии с помощью метода наименьших квадратов минимизируют суммы квадратов ошибок. Если значения Y отложить по вертикальной оси, а значения X – по горизонтальной, то полученная аппроксимированная линия называется регрессией Y по X, так как расстояния по вертикали минимизированы. В большинстве случаев ?0 и ?1 неизвестны, и их определяют (оценивают), исходя из имеющихся выборочных наблюдений с помощью следующего уравнения: где – теоретическое значение Yi , а а и b – вычисленные значения ?0 и ?1, соответственно. Константу b обычно называют ненормированным коэффициентом регрессии. Он выражает угол наклона линии регрессии и показывает ожидаемое изменение Y при изменении Х на единицу. Угловой коэффициент b можно вычислить через ковариацию между Х и Y(COVxy) и дисперсию Х по формуле: Отрезок, отсекаемый на оси OY – а, можно вычислить по формуле: Модель множественной регрессии оценивают следующим уравнением: = a+b1X1+b2X2+b3X3 + ...bkXk Как и раньше, коэффициент а представляет собой отрезок, отсекаемый на оси OY, но коэффициенты b являются теперь частными коэффициентами регрессии. Интерпретация частного коэффициента регрессии b1 заключается в том, что он представляет ожидаемое изменение величины Y, когда Х1 изменяется на единицу, а Х2 остается постоянной, т.е. управляемой (контролируемой) переменной. В отличие от этого, b2 представляет ожидаемое изменение Y при изменении Х2 на единицу, когда Х1 остается постоянной. Поэтому названия b1 и b2 – частные коэффициенты регрессии, соответствуют действительности. Кроме того, результаты совместного влияния Х1 и Х2 на Y суммируются. Иначе говоря, если каждую из переменных Х1 и Х2 изменить на единицу, то ожидаемое изменение значения Y будет равно (b1 + b2). 4. Оценка тесноты связи. Тесноту связи измеряют коэффициентом детерминации R2. В парной регрессии R2 представляет собой квадрат линейного коэффициента корреляции. Коэффициент R2 изменяется от 0 до 1. Он показывает долю от полной вариации Y, которая обусловлена вариацией переменной X. Разложение полной вариации переменной Y аналогично разложению полной вариации в дисперсионном анализе. Полная вариация SSy раскладывается на вариацию, которую можно объяснить, исходя из линии регрессии SSрегрессии, и вариацию ошибки или остаточную вариацию, SSошибки или SSостаточная: SSy= SSрегрессии+ SSостаточная, где Теснота связи вычисляется следующим образом: 5. Проверка значимости связи. Статистическую значимость линейной связи между Х и Y можно проверить, исследовав гипотезы: Нулевая гипотеза предполагает, что между Х и Y не существует линейной зависимости. Альтернативная гипотеза утверждает, что между X и Y существует зависимость, либо положительная, либо отрицательная. Обычно проводят двустороннюю проверку. Можно использовать t-статистику с п-2 степенями свободы, где Sb обозначает стандартное отклонение b, и этот показатель называют стандартной ошибкой коэффициента регрессии b. Если зависимость между X и Y статистически значима, то имеет смысл вычислить значения Y, исходя из значений X, и оценить точность предсказания. Другой равноценной проверкой значимости линейной зависимости между X и Y (значимости b) является проверка значимости коэффициента детерминации. В этом случае гипотезы имеют следующий вид: Соответствующей статистикой, лежащей в основе критерия, является F-статистика: , которая подчиняется F-распределению с 1 и п - 2 степенями свободы. 5. Оценка точности предсказания. Чтобы оценить точность предсказанных (теоретических) значений , полезно вычислить стандартную ошибку оценки уравнение регрессии S. Эта статистика представляет собой стандартное отклонение фактических значений Y от предсказанных значений : или, в более общем виде, при наличии k независимых переменных Стандартную ошибку оценки можно интерпретировать следующим образом: 1) можно ожидать, что примерно 2/3 точек данных будут находиться на расстоянии не более S выше или ниже линии регрессии; 2) около 95% значений данных должны находиться не расстоянии не более чем 2S от линии регрессии.

Каталог работ

Узнать цену

Корреляционный и регрессионный анализ.

Похожие рефераты: